时政
财经
科技
虚拟货币
其他
登录
#FG-CLIP 2
关注
sitin
1天前
试了下 360 开源的 FG-CLIP 2, 直接把传统 AI 视觉理解给秒了。 以前让 AI 画「猫站在蓝色跑车左边,后面是白色 SUV」, 它连「后面」这个空间关系都搞不懂。 搜「红色特斯拉引擎盖上有鸟粪」, 两排图下来对得上的就一张。 这就是传统 CLIP 的通病 —— 近视,看不清细节。 FG-CLIP 2 能干嘛? 通过毛发纹理分辨狸花猫和英短, 看懂屏幕里面的内容, 理解「机器人带老年人做伸展操」这种复杂场景。 29 项全球测试,29 个第一。 Google、Meta 全被甩后面。 而且中文理解也猛, 不像其他模型中文基本失明。 核心就两点: 5 亿对高质量中文图文数据 + 局部细节死磕训练。 已经开源,代码论文 API 都有。 这才是真正能用的视觉模型。
智谱直播发布全球最佳视觉模型GLM-4.5V,挑战AI视觉领域极限· 19 条信息
#FG-CLIP 2
#AI视觉理解
#中文理解
#开源
#细节识别
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞